查看原文
其他

论文推荐|[TIP2020]基于深度特征相似性融合的少样本文符风格迁移

路雄博 CSIG文档图像分析与识别专委会 2022-07-11


本文简要介绍IEEE TIP 2020录用论文“Few-Shot Text Style Transfer via Deep Feature Similarity”的主要工作。该论文针对少样本文本/字符风格迁移问题,提出一种基于深度特征相似性融合的方法,并结合生成对抗网络,最终生成看起来更加真实的风格字符图片。

一、研究背景

文本包含各种风格,包括字体,部首,笔划,阴影,轮廓,颜色,纹理,复杂的效果等。传统上,设计和装饰文本需要花费大量时间,当涉及到大量字符时,这些耗费可能会很昂贵。而在现实生活中,我们只能收集艺术家为特定用途而设计的一致风格化文本的子集,即标题,注释或徽标。这使得很难将观察到的文本风格转换为用于自己的项目的其他文本。此外,给定用于样式转换的文本内容,我们应该同时考虑侧重于字体样式转换的字体和用于各种颜色和效果渲染的纹理。在计算机视觉社区中,这两个领域中的任何一个都是重要且具有挑战性的研究分支[1],[2]。

大多数文本风格迁移方法都是基于印刷体(Typography)的,其重点是轮廓的几何建模[3]或字体样式迁移[4]。很少有方法可以生成具有基本效果(例如阴影,颜色)和更复杂的效果(例如渐变,条纹和精美装饰)的文本。文本字体和纹理合成被认为是不同的任务,需要分别处理。例如,基于补丁(Patch-based)的方法[5]从一个参考图像中提取补丁,并将其放置在目标字形图像上的适当位置。它需要参考和目标字符的轮廓形状图像来建立补丁对应关系。MC-GAN[6]首次提出端到端(End-to-end)的解决方案以进行文本风格迁移。它建立在两个级联的堆叠网络上,字形网络(Glyph Network)用于字体合成,装饰网络(Ornamentation Network)用于纹理合成。但是,堆栈体系结构的设计限制了其对包含大量字符(例如中文)的其他语言系统的推广。

本文提出了一种将两个网络组合在一个端到端网络中的方法来来合成字符,文本内容和样式特征分别通过两个高性能的卷积神经网络(CNN)提取。本文认为文本的内容和样式不是独立的,应该考虑不同字符之间的相似性。例如,如果任何示例字符中都没有曲线,则可能无法合成完美的“P”或“B”。因此,本文提出学习加权样式特征,这些特征是通过对每个示例字符与目标字符之间的相似性进行评分来衡量的。本文通过相同的CNN独立提取每个示例字符的样式特征,这种设计允许在数量上进行灵活的输入。


二、方法简述

为了描述方便,进行一些形式化描述,IR:给定风格的字符,CR:给定的风格字符对应的标准字符,CT:目标字符对应的标准字符,标准字符:一组字符的全集,GC:生成字符。则本文的目标可描述为:

1.通过风格提取器分别提取IRs,CRs,CT的风格特征,得到fsifci,fSC,其中i=1,2,3…n,n表示参考字符的个数。
2.通过内容提取器提取CT的内容特征,得到fc

3.计算fcifSC在深度风格特征空间的相似性矩阵SM,其中矩阵中每个元素Si,j可描述为:

(1)中j表示Channel的索引,对(1)进行归一化,a是一个放缩的超参数:

根据相似性矩阵SM,以及fsi得到目标字符在特定风格特征上的特征表示:

4.将fcfs级联,输入特征解码器,生成目标字符。
5.最终的损失函数为:

其中y为生成字符的Ground Truth。

三、实验结果

本文首先实验不同标准字符集的选取对实验的影响:


然后,分别对比了将相似性融合替换为权重平均和级联:


分析了深度特征的相似性:


并得到一张26个字母在576个Channel上的平均相似度表格,并按照平均相似性排序:


接下来,本文和MCGAN,Patch-based等方法进行了对比:


同时,作者还验证了本方法在其他文字上的适用性:


四、总结和展望

本文提出了一种文本样式转换方法来合成仅包含少量参考字符的文本。两个共享相同体系结构的深度神经网络分别用于从目标字符中提取内容特征和从参考字符中提取单个样式特征。在MC-GAN数据集和我们收集的数据集上的实验结果证明了所提出的文本风格迁移方法的有效性和鲁棒性。在汉字上的实验表明,该方法可以应用于其他语言,并且表明字体样式的合成比纹理样式的转换更困难。未来的工作旨在执行更细粒度的深度相似性融合,以更好地在不同语言上进行文本风格迁移。


五、论文地址

https://ieeexplore.ieee.org/abstract/document/9098082


六、参考文献
[1]. Y. Zhang, Y. Zhang, and W.Cai, “Separating style and content for generalized style transfer,” in Proc.IEEE Intl Conf. Computer Vision and Pattern Recognition, 2018.
[2]. D. Ulyanov, V. Lebedev, A.Vedaldi, and V. Lempitsky, “Texture networks: Feed-forward synthesis of textures and stylized images,” in Proc. IEEE Intl Conf. Machine Learning, 2016.
[3]. N. D. F. Campbell and J.Kautz, “Learning a manifold of fonts,” ACM Transactions on Graphics, vol. 33,no. 4, pp. 1–11, 2014.
[4]. J. Chang and Y. Gu, “Chinese typography transfer,” arXiv preprint arXiv:1707.04904, 2017.
[5]. S. Yang, J. Liu, Z. Lian, andZ. Guo, “Awesome typography: Statistics based text effects transfer,” in Proc. IEEE Intl Conf. Computer Vision and Pattern Recognition, 2017.
[6]. S. Azadi, M. Fisher, V. Kim,Z. Wang, E. Shechtman, and T. Darrell,“Multi-content gan for few-shot font style transfer,”in Proc. IEEE Intl Conf. Computer Vision and Pattern Recognition, 2018.
 

原文作者: Anna Zhu Xiongbo Lu ,Xiang Bai Seiichi Uchida Brian Kenji Iwana, Shengwu Xiong


撰稿:路雄博

编排:高 学

审校:连宙辉

发布:金连文


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。 



往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)



征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。




(扫描识别如上二维码加关注)



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存